تعیین مرز و نوع عبارات نحوی در متون فارسی

نویسندگان

آرمین سلیمی بدر

تهران - بزرگراه صدر - ابتدای خیابان کامرانیه جنوبی - کوچه آبشار-پلاک 4 محمدمهدی همایون پور

mohammad mehdi homayounpour تهران، خیابان حافظ، دنشگاه صعتی امیرکبیر، دانشکده مهندسی کامپیوتر و فناوری اطلاعات

چکیده

واحدسازی، از مهمترین مسائل در پردازش زبان های طبیعی است که عبارت است از فرایند تقسیم متن به واحدهای معنادار نظیر واژه، عبارت نحوی، جمله و غیره. واحدسازی گروه های نحوی یک متن، از جمله وظایف واحدسازی متن محسوب می شود که در بسیاری از کارهای پردازش زبان طبیعی، نظیر سیستم های ترجمه ی ماشینی، استخراج اطلاعات، پرسش وپاسخ و سیستم های تبدیل متن به گفتار، می تواند به عنوان پیش پردازشی مهم، حضور داشته باشد. واحدسازی عبارات نحوی، در هر زبان، متناسب با ویژگی های نوشتاری آن زبان دارای مشکلات و پیچیدگی هایی است. زبان فارسی به دلیل وجود رسم الخط های مختلف، جملات بدون ترتیب، افعال مرکب، ابهامات معنایی و عدم نمایش مصوت ها دارای مشکلاتی است. در این مقاله روشی مبتنی بر روش های آماری و یادگیری و اطلاعات و ویژگی های دستور زبانی جهت تشخیص مرز و نوع گروه های نحوی در متون فارسی فاقد علایم سجاوندی ارائه شده است که در آن از روش های یادگیری ماشین بردار پشتیبان و میدان تصادفی شرطی استفاده شده است. در روش ارائه شده ویژگی های مختلف زبانی استخراج و مورد بررسی قرار گرفته است. بهترین دقت به دست آمده توسط این سیستم، 02/84% بر اساس معیار f و 45/87%، بر اساس تعداد برچسب های صحیح به کل در تعیین مرز، و 04/78%، در تعیین مرز و نوع به صورت توأم، بوده است..

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

تعیین مرز و نوع عبارات نحوی در متون فارسی

Text tokenization is the process of tokenizing text to meaningful tokens such as words, phrases, sentences, etc. Tokenization of syntactical phrases named as chunking is an important preprocessing needed in many applications such as machine translation information retrieval, text to speech, etc. In this paper chunking of Farsi texts is done using statistical and learning methods and the grammat...

متن کامل

توصیف ویژگی‌های نحوی و واژگانی متون حقوق مدنی فارسی

مقالةحاضرحاصل انجام تحقیق در حوزة زبان‌شناسی حقوقی است. نگارندگان پس­از معرفی این حوزه و شاخه‌های مختلف آن سعی کرده‌اند تا با روش تحلیل محتوا و به شیوة انتخاب تصادفی کتب حقوقی در سه بعد علمی، درسی و مادة قانونی، به بررسی برخی از ویژگی‌های نحوی و واژگانی در متون نوشتاری حقوق مدنی فارسی بپردازند. یافته‌های تحقیق نشان می‌دهد که درکلیة متون حقوق مدنیِ مورد مطالعه، مجموع ساخت‌های غیرشخصی، میانه و مجه...

متن کامل

توصیف ویژگی های نحوی و واژگانی متون حقوق مدنی فارسی

مقالةحاضرحاصل انجام تحقیق در حوزة زبان شناسی حقوقی است. نگارندگان پس­از معرفی این حوزه و شاخه های مختلف آن سعی کرده اند تا با روش تحلیل محتوا و به شیوة انتخاب تصادفی کتب حقوقی در سه بعد علمی، درسی و مادة قانونی، به بررسی برخی از ویژگی های نحوی و واژگانی در متون نوشتاری حقوق مدنی فارسی بپردازند. یافته های تحقیق نشان می دهد که درکلیة متون حقوق مدنیِ مورد مطالعه، مجموع ساخت های غیرشخصی، میانه و مجه...

متن کامل

آشکارسازی و تعیین مکان متون فارسی - عربی در تصاویر ویدیویی

Video text detection plays an important role in applications such as semantic-based video analysis, text information retrieval, archiving and so on. In this paper, we propose a Farsi/Arabic text detection approach. First, with an appropriate edge detector, edges are extracted and then by using edges cross ponts, artificial corners are extracted. Artificial corner histogram analysis is done for ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید


عنوان ژورنال:
پردازش علائم و داده ها

جلد ۱۰، شماره ۲، صفحات ۶۹-۸۶

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023